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摘要 : 


以 非 小 细胞 肺癌 为 例 


【 目的 ] 利用 SEER 数据 库 , 找 出 对 非 小 细胞 肺癌 患者 预后 生存 的 影响 因素 并 预测 患者 预后 生存 状态 , 指 
导 肿 瘤 预后 评价 。[ 方法 】 采用 单 因素 统计 学 方法 及 Logistic 回归 分 析 初 步 第 选 预后 相关 因素 ,利用 贝 叶 


网 络 


方法 构建 患者 术 后 生存 预测 模型 ， 并 与 其 他 三 种 常见 的 机 器 学 习 分 类 算法 所 建 模 型 效能 做 比较 。【 结果 ] 最 终 纳 


入 模型 的 预后 变量 共 5 项 , 包括 年 龄 、 肿 瘤 大 小 、 组 织 学 分 级 、 肿 瘤 分 期 和 受累 淋巴 结 比率 。 贝 叶 斯 网 络 所 建 


模型 对 非 小 细胞 肺癌 患者 生存 状况 预测 准确 率 达到 72.87%。[ 局 限 ] SEER 数据 库 内 纳入 的 预后 因素 有 限 , 一 定 


程度 影响 预测 效果 。[ 结论 】 贝 叶 斯 网 络 可 探寻 变量 间 的 关系 并 构建 肺癌 患者 最 优 预 后 模型 ， 辅 助 医生 判断 患 


预后 情况 及 治疗 效果 , 优 于 决策 树 、 文 持 向 量 机 及 人 工 神经 网 络 三 种 模式 。 


关键 词 : 贝 叶 斯 网 络 ” 非 小 细胞 肺 瘙 
分 类 号 : R730.7 G35 


预后 ”机 需 学 习 


1 3 引 


肺癌 是 肿瘤 患者 死亡 的 主要 原因 ， 其 中 非 小 细胞 
肺癌 (Non-Small Cell Lung Cancer NSCLO) 约 占 所 有 
肺癌 病例 的 83%,， 其 发 病 率 为 40.60/10 万 , 5 年 生存 率 
仅 为 22.1%0D。 非 小 细胞 肺癌 发 病 率 高 且 预 后 差 , 对 其 
预后 的 判断 就 尤为 重要 。 目 前 临床 医生 通常 根据 手术 
病理 分 期 判断 预后 , 但 该 分 期 仅 考 虑 到 肿瘤 原 发 灶 、 
区 域 淋巴 结 受 累 和 远 处 转移 三 方面 , 忽略 了 其 他 预后 
影响 因素 的 作用 ,预测 效果 差 趾 ,目前 少 有 的 预后 研究 
多 以 单独 或 较 少 几 个 医疗 机 构 为 主要 研究 单位 ， 随 访 
数据 缺失 多 、 数 据 量 小 、 可 信和 度 差 。 临 床上 王 需 有 基 


了 中 


于 较 大 量 数据 、 可 信 度 高 、 预 测 效果 好 的 非 小 细胞 肺 
癌 患 者 预后 预测 评估 体系 。 

美国 国家 癌症 人 研究 所 (National Cancer Institute， 
NCD 于 1973 年 建立 了 监测 、 流 行 病 学 及 预后 数据 库 
(Surveillance, Epidemiology and End Results, SEER), 
是 世界 公认 的 肿瘤 患者 随访 数据 权威 来 源 之 一 , 为 临 
床 研究 提供 了 可 靠 的 数据 支持 ， 有 学 者 利用 此 数据 库 ， 
采用 简单 统计 学 方法 建立 了 横 纹 肌肉 瘤 等 疾病 生存 预 
测 模型 。 本 研究 将 利用 SEER 数据 库 , 提取 其 中 的 亚 
洲 人 NSCLC 病例 , 采用 更 能 反映 预后 变量 之 间 相 关 
关系 且 适 用 性 更 好 的 机 器 学 习 方法 , 构建 亚洲 人 
NSCLC 预后 模型 及 预测 评估 体系 ,为 临床 医生 开展 
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治疗 与 判断 预后 提供 决策 支持 。 
2 相关 研究 


国内 外 对 疾病 预测 模型 的 研究 已 经 有 一 定 基础 。 
Muers 等 中 获取 6 所 医疗 机 构 中 NSCLC 患者 数据 建立 
其 预后 风险 模型 ， 并 将 模型 所 输出 的 生存 期 与 临床 医 
生 的 判断 作 比 较 ; Yang 等 外 基于 SEER 数据 库 构 建 横 
纹 肌 肉瘤 患 者 5 年 及 10 年 生存 预测 模型 以 指导 治疗 方 
法 的 选择 ; Park 等 5 利用 临床 试验 数据 , 预测 采用 姑息 
化 疗 的 晚期 胆道 腺 癌 患 者 的 生存 情况 。 以 上 模型 均 先 
筛选 预后 因素 再 采用 统计 学 中 的 COX 回归 方法 构建 
模型 ， 这 也 是 构建 医学 预测 模型 的 常见 方法 。 但 COX 
回归 分 析 难 以 看 出 预后 变量 之 间 的 关系 ,为 提高 模型 
的 适用 性 , 机 絮 学 习 方 法 逐渐 受到 研究 者 的 推崇 。 如 
Kim 等 四 应 用 朴素 贝 叶 斯 方法 并 绘制 诺 模 图 
(Nomogram), 通过 7 项 指标 得 到 术 后 复发 的 可 能 性 ， 
该 研究 者 曾 于 2012 年 使 用 支持 向 量 机 方法 预测 乳腺 
癌 患 者 术 后 5 年 生存 情况 中 ,而 后 构建 在 线 预 后 系统 。 

自 21 世 纪 初 开始 , 国内 越 来 越 多 的 研究 者 开始 从 
机 器 学 习 方 向 出 发 评价 肿瘤 及 其 他 疾病 的 发 生 、 发 展 
和 预后 。 刘 雅 琴 由 基于 SEER 数据 库 使 用 Logistic 回归 、 
人 工 神 经 网 络 、 决 策 树 三 种 方法 比较 预后 预测 模型 效 
果 , 是 国内 此 领域 研究 肿瘤 预后 的 重要 突破 。 台 湾 学 
者 Chen 等 四 使 用 人 工 神经 网 络 对 4 个 医疗 机 构 的 
NSCLC 患者 的 临床 及 基因 表达 数据 进行 探究 ， 建 立 
生存 状况 风险 模型 ; 牟 冬 梅 等 \ 中 通过 提取 电子 病历 信 
息 进 而 构建 妊娠 高 血压 综合 征 危险 因素 预测 模型 ， 得 
到 决策 树 模 型 为 最 优 。 但 是 以 上 研究 的 变量 纳入 均 凭 
普 已 有 经 验 , 缺少 与 临床 医生 的 交流 ， 未 实现 跨 学 科 
的 合作 。 
通过 文献 研究 发 现 : 肿瘤 中 发 病 率 及 死亡 率 均 较 
高 的 肺癌 的 预后 研究 屈指 可 数 。 因此, 本文 基于 SEER 
数据 库 ,确定 患者 预后 因素 并 参考 肿瘤 医生 的 意见 进 
行 调 试 , 利用 更 能 反映 预后 变量 之 间 相 关 关 系 日 适用 
性 更 好 的 机 器 学 习 方法 ,以 提升 预测 准确 率 为 目标 ， 
构建 亚洲 NSCLC 患者 术 后 生存 模型 ， 更 好 地 为 临床 
预后 评价 服务 。 


3 ”肿瘤 预后 模型 构建 方案 
肿瘤 的 预后 包括 风险 评估 、 复 发 、 转 移 及 生存 情 


数据 分 析 与 知识 发 现 


况 评价 0。 以 NSCLC 患者 术 后 5 年 为 时 间 基 准 , 对 患 
者 的 生存 情况 即 “ 生 存 ” 与 “死亡 ”进行 预测 ， 具 体 人 研究 
流程 如 图 1 所 示 。 


SEER*Stat 
下 载 


2004.1-2007.12 被 确诊 为 NSCLC 并 实施 手术 的 亚洲 患者 


模型 产生 
M2 
训练 集 (N1=495) 测试 集 (N2=188) 


特征 变量 筛选 


构建 贝 叶 


用 网络 预 后 模型 
不 


模型 效能 评价 
图 1 基于 SEER 构建 亚洲 NSCLC 患者 
预后 模型 的 研究 流程 


具体 步 又 如 下 : 

(1) 数据 下 载 : 在 SEER*Stat 软件 中 调用 
Incidence-SEER18 Regs Research Data+Hurricane 
Katrina Impacted Louisiana Cases, Nov2014 版 本 数据 ， 


该 版 本 数据 随访 终止 日 期 为 2012 年 年 末 , 并 根据 
ICD-O-3 恶性 肿瘤 形态 学 编码 ,下载 NSCLC 患者 数据 。 

(2) 变量 选取 依据 : 参考 美国 癌症 联合 会 
(American Joint Committee on Cancer,AJCC) 、 美 国 国立 
癌症 网 络 (The National Comprehensive Cancer Network, 
NCCN) 临 床 指南 及 美国 第 二 版 肿瘤 信息 采集 系统 > 中 
(Collaborative Stage Manual Online Help, CS) 中 所 提 及 
与 患者 生存 相关 的 预后 因素 , 并 从 SEER*Stat 中 提取 
含有 上 述 变量 的 所 有 字段 ， 以 首次 确诊 时 所 登记 的 患 
者 信息 为 准 , 将 整理 后 的 患者 数据 录入 Excel 表 。 

(3) 特征 变量 筛选 : 为 确定 各 变量 是 否 独立 影响 
患者 的 生存 情况 ,首先 应 用 SPSS22.0 软件 对 训练 样本 
进行 单 因素 分 析 ( 独 立 样本 t+ 检验 或 卡 方 检 验 )， 而 后 将 
经 单 因 素 分 析 得 到 的 变量 纳入 Logistic 回归 分 析 , 并 
第 选 NSCLC 高 相关 预后 因素 , P<0.05 具有 统计 学 意 
义 , 结合 临床 医生 的 建议 调整 变量 纳入 最 终 模型 。 

(4) 肿瘤 预后 模型 的 构建 : 选用 机 器 学 习 中 的 监 
督学 习 方法 ,进行 肿瘤 预后 预测 模型 的 构建 VW。 应 用 
R Studio 软件 建立 贝 叶 斯 生存 预测 模型 ， 并 完成 贝 叶 
斯 网 络 的 结构 调整 , 构建 有 效 的 预后 模型 。 

(5) 模型 评价 : 选用 数据 挖掘 软件 WEKA 比较 贝 


宇 
上 


斯 网 络 模 型 及 其 他 三 种 常见 分 类 模型 的 预测 准确 
生 、 精 确 度 及 ROC 曲线 下 面积 。 


4 研究 过 程 


4.1 肿瘤 预后 模型 的 构建 

(1) 研究 对 象 

选取 自 2004 年 起 被 确诊 为 NSCLC 的 亚 裔 患者 为 
最 终 研究 对 象 , 其 中 包含 5 年 内 直接 因 NSCLC 致死 和 
随访 期 满 5 年 日 仍然 生存 的 患者 , 共计 683 位 。 

(2) 人 研究 变量 

在 SEER 中 提取 17 项 预后 研究 变量 : 性 别 、 国 别 、 
婚姻 状况 、 发 病 部 位 、 病 理 类 型 、 组 织 学 分 级 、 患 侧 
部 位 、 邻 近 器 官 浸润 程度 、 区 域 淋巴 结 累 积 程度 、 远 
处 转移 程度 、 肿 瘤 分 期 、 手 术 类 型 、 是 否 接受 放疗 以 
及 确诊 时 年 龄 、 肿 瘤 大 小 、 阳 性 淋巴 结 数 量 及 受 检 淋 
巴结 数量 , 其 中 后 4 项 指标 为 连续 型 变量 ， 其 余 均 为 
分 类 变量 ， 如 表 1 所 示 。 

表 1 非 小 细胞 肺癌 患者 预后 指标 信 


六 


淡 


(3) 结局 变量 

肿瘤 患者 5 年 生存 情况 是 评价 预后 效果 的 重要 指 
标 。 以 NSCLC 患者 术 后 5 年 的 生存 情况 作为 应 变量 。 
其 中 生存 期 以 月 为 单位 ， 对 其 进行 分 类 变量 的 转换 ， 
即 生存 时 间 在 60 个 月 及 以 上 的 患者 被 视 为 “生存 *( 记 
为 1), 否则 即 为 “死亡 ”( 记 为 0)。 

(4) 特征 变量 选择 

为 减少 预后 变量 ,提高 模型 的 预测 准确 性 , 需 对 
纳入 研究 变量 进行 高 相关 预后 因素 选择 。 经 单 因 素 分 
析 后 初步 纳入 的 变量 有 (P<0.05): 确诊 时 年 龄 、 肿 瘤 大 
小 、 组 织 学 分 级 、 肿 瘤 分 期 、 邻 近 器 官 浸润 程度 、 区 
域 淋巴 结 累 积 程 度 、 阳 性 淋巴 结 数量 、 婚 姻 状 况 、 国 
别 、 远 处 转移 程度 、 手 术 类 型 及 是 否 放疗 。 在 单 因素 
分 析 的 基础 上 经 Logistic 回归 分 析 筛 选 出 的 预后 变量 
有 (P<0.05): 确诊 时 年 龄 、 肿 瘤 大 小 、 组 织 学 分 级 、 肿 
瘤 分 期 、 受 检 淋 巴结 数量 及 阳性 淋巴 结 数量 。 筛 选 结 
果 如 表 2 所 示 。 

表 2 Logistic 回归 分 析 筛 选 变量 结果 


数据 类 型 。 变量 SEER 中 所 示 名 称 ”类 数 /数值 范 古 


性 别 Sex 2 
国 别 Race recode (Asian) 8 
Marital status at 
状 ; 4 
婚姻 状况 diagnosis 
发 病 部 位 Primary Site - labeled 3 
A ICD-O-3 Hist/behav 
D > | 本 4 
席 理 类 型 malignant 
组 织 学 分 级 Grade 4 
患 侧 部 位 Laterality 2 
分 类 型 
分 类 型 邻近 器 官 
浸润 程度 CS extension 18 
区 域 淋巴 结 
。 让 中 CS lymph nodes 5 
远 处 转移 程度 CS mets at dx 5 
Derived AJCC 
疗 介 草 
肿瘤 分 其 Stage Group 
A RX Summ--Surg 
EE 到 | 
于 术 关 型 Prim Site 
是 否 放 疗 Radiation 3 
确诊 时 年 龄 Age at diagnosis 26-90 
肿瘤 大 小 CS tumor size 4-132 
连续 型 阳性 淋巴 结 数量 Regional nodes 0-23 
positive 
受 检 淋 巴结 数量 Regional nodes 1.45 


examined 


95% Exp(B) 


变量 名 称 B SEED(B) GO 
Ee ee 


确诊 时 年 龄 -0.066 0.011 0.936 0.916 0.957 0.000 
肿瘤 大 小 -0.018 0.007 0.982 0.968 0.996 0.014 


组 织 学 分 级 / / / / / 0.001 
肿瘤 分 期 / / / . / 0.013 
sg ” 0.050 0.017 1.051 1.016 1.087 0.004 
里 

和 性 淋 四 疆 

UU -0.199 0.067 0.819 0.719 0.934 0.003 
里 


受累 淋巴 比率 (Lymph Nodes Ratio，LNRJ) 为 阳性 
淋巴 结 数量 与 受 检 淋 巴结 数量 的 比值 ,参考 临床 医生 
的 意见 , 将 LNR 代 蔡 阳性 淋巴 结 数量 和 受 检 淋 巴结 数 
量 两 项 作为 预后 变量 ， 即 最 终 进 入 模型 的 变量 为 : 确 
诊 时 年 龄 、 肿 瘤 大 小 、 组 织 学 分 级 、 肿 瘤 分 期 及 受累 
淋巴 比率 。 

(5) 数据 预 处 理 

删除 数据 缺失 严重 、 记 录 错 误 及 因 非 肺癌 致死 的 
患者 信息 ,选用 Interval 方法 对 数值 型 数据 进行 离散 
化 。 该 离散 化 方法 旨 在 将 区 间 [外 ,, Xv_ | 划分 为 同样 
大 小 的 子 区 间 DD 并 根据 所 属 子 区 间 指 数 给 出 离散 化 意 
见 , 其 中 观察 指数 i 与 离散 水 平 j 满足 以 下 条 件 (: 
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ChinaXiv 合 作 期 刊 


(Xv 1— Xo0) (j+D(Xy.1 — Xo0) 


Xo+ <X,X0+ 


和 > ee 
在 软件 R studio 中 调用 bnlearn 的 函数 包 实现 以 上 
雪 据 预 处 理 步 又 。 而 后 按照 约 70% 与 30% 的 比例 呈 《cam 7 > Coie2 | 
(oee) 


将 数据 分 为 训练 集 (N1=495) 和 测试 集 (Ns=188)， 训练 


集 用 来 进行 网 络 学 习 及 调整 ， 从 而 构建 预后 模型 ， 测 
试 集 则 用 来 评价 模型 的 性 能 。 

图 2 亚洲 非 小 细胞 肺癌 患者 预后 生存 
贝 叶 斯 网 络 模型 


(6) 预后 模型 的 构建 及 预测 结 
贝 叶 斯 网 络 (Bayesian Network, BN) 通 过 表示 变量 


的 节点 和 表示 变量 间 关系 的 连 线 描述 子 节 点 与 父 节点 
间 的 依赖 关系 54, 已 知 随机 变量 蕊 = {Xi 各,，…, 天,}， 
其 联合 概率 分 布 为 : 


4.2 对比 实验 
另 选 用 决策 树 、 支 持 向 量 机 及 人 工 神经 网 络 方法 
建立 预后 模型 ， 并 根据 预测 结果 与 本 研究 所 构建 的 预 


> PX X,) =T PX, Pat)) 后 模型 作对 比 ,在 WEKA 中 分 别 选择 三 种 方法 所 对 应 
(© i=1 的 J48、SMO 及 Mnultilayer Perceptron 建立 预后 模型 ， 
UY 其 中 ，Pa(X;) 是 总 父 节 点 的 子 集 , 在 网 络 图 中 知 。 参数 默认 。4 种 机 器 学 习 算 法 建 模 的 预测 准确 性 及 模 


乌 ) ”独立 于 其 非 直系 节点 变量 。 选 用 禁忌 搜索 (Tabu Search, 
加 TS) 方法 对 贝 叶 斯 网 络 进行 初步 学 习 。 该 方法 于 1986 


型 性 能 评价 比较 如 表 4- 表 5 所 示 。 
表 4 BNNSCLC 模型 与 其 他 三 种 分 类 算法 所 建 模型 


年 由 美国 工程 学 院 院士 Fred Glover 提出 "1, 是 一 种 基 
于 邻 域 和 迭代 来 求解 优化 问题 的 启发 式 算法 。 该 方法 
的 本 质 是 禁止 重复 前 面 的 工作 , 跳出 局 部 搜索 最 优点 ， 


预测 准确 率 比 较 


即 在 区 域 中 随机 移动 并 产生 新 的 方案 , 而 后 将 评估 每 
一 个 相 邻 的 解决 方案 ,并 选择 最 能 提高 目标 函数 的 路 
径 , 若 没有 能 提高 最 终结 果 的 方案 则 选取 对 目标 函数 
影响 最 小 的 方案 , 通过 模仿 人 类 记忆 找 出 最 佳 结果 [4 
步骤 如 下 : 

确定 区 域 No)， 从 中 选 定 一 个 初始 可 行 解 思 ,使 当前 
最 优 解 好 “三 好 ， 则 三 NO ; 

回 按照 上 述 步 骤 依 次 组 合 ， 并 得 到 最 新 解 XX" ， 
nel[l,+%], 输出 计算 结果 ; 

图 比较 所 有 决策 结果 并 输出 全 局 决策 最 优 解 
"tna = Yt 要 

Makond 等 (所 构建 的 贝 叶 斯 预后 模型 并 未 完全 
根据 所 得 数据 进行 学 习 ， 而 是 通过 听取 医生 意见 建立 


预测 准确 率 
4 训练 集 测试 集 
贝 叶 斯 网 络 0.683 0.729 
决策 树 0.713 0.670 
支持 向 量 机 0.733 0.686 
人 工 神 经 网 络 0.784 0.649 


表 5 不 同 算法 所 构建 模型 性 能 比较 


算法 预测 准确 率 ” 精确 度  ROC 曲线 下 面积 
贝 叶 斯 网 络 72.87% 71.0% 0.67 
决策 树 67.02% 66.3% 0.568 
支持 向 量 机 68.62% 68.2% 0.611 
人 工 神 经 网 络 64.89% 63.7% 0.615 


4.3 ”实验 分 析 
本 研究 发 现 贝 叶 斯 网 络 所 构建 的 NSCLC 预后 模 


患者 预后 生存 模型 ,实际 上 是 基于 实际 经 验 的 建 模 思 
维 。 本 研究 克服 单 以 实际 经 验 建 模 的 次 端 ， 结合 网 络 
学 习 方 法 TS 与 医生 意见 共同 建立 患者 预后 模型 ,在 及 
Studio 软件 中 实现 网 络 模型 的 修整 与 优化 ,最 终 的 网 
络 模型 如 图 2 所 示 。 

在 R Studio 软件 中 使 用 caret 包 输出 预测 样本 及 实例 
所 组 成 的 表格 及 预测 模型 评价 指标 。 本 研究 共 188 个 测 
试 集 样 本 , 预测 正确 137 例 ,预测 正确 率 达 72.87%。 
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型 最 优 。 由 表 4 可 知 , 虽然 决策 树 、 支 持 疝 量 机 及 人 
工 神经 网 络 在 训练 集 上 的 预测 准确 性 均 高 于 贝 叶 斯 网 
络 , 但 在 测试 集中 三 者 预测 准确 性 的 数值 与 训练 集 相 
比 显 著 下 降 , 未 能 很 好 地 适应 新 数据 , 不适 于 实际 应 
用 , 模型 的 拟 合 程度 不 如 贝 叶 斯 网 络 模型 。 另 通过 对 
表 5 的 解读 ， 贝 叶 斯 网 络 模型 在 预测 准确 率 、 精 确 度 
及 ROC 曲线 下 面积 的 数值 均 高 于 其 他 三 种 机 器 学 习 
算法 。 
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网 络 学 习 方 法 的 选择 是 构建 由 叶 斯 分 类 器 的 基 
础 。 本 研究 选用 TS 方法 初步 对 网 络 模型 进行 构建 , 是 
对 疏 山 法 的 优化 ， 当 已 知 构成 某 网 络 变量 并 不 产生 网 
络 环 路 的 基础 上 ， 以 移动 搜索 代 蔡 随机 产生 , 采用 加 、 
减 及 道 向 边 三 种 操作 产生 邻 域 中 ,并 搜索 全 局 最 优 解 
来 调整 网 络 结构 以 完成 贝 叶 斯 网 络 的 自学 习 。 在 此 基 
础 上 , 结合 临床 医生 的 经 验 修改 网 络 图 , 将 高 相关 预 
后 因素 相 联系 , 是 理论 方法 与 实际 应 用 的 典型 结合 。 

网 络 图 的 调整 是 该 生存 预测 模型 构建 研究 的 最 关 
键 流程 。 如 图 2 所 示 , 箭头 方向 表示 节点 间 的 关系 ， 如 
size 指 癌 stage 即 为 前 者 直接 对 后 者 产生 影响 , 所 选 预 
后 变量 均 指 向 最 终 变量 生存 状态 ,其 中 确诊 时 年 龄 、 
肿瘤 分 期 及 受累 淋巴 比率 直接 影响 患者 的 生存 情况 。 
通过 构建 不 同 的 网 络 图 找到 最 优 分 类 模型 ， 从 而 判断 
各 预后 因素 间 的 关系 及 对 生存 状态 的 影响 , 临床 可 据 
此 评价 肿瘤 患者 术 后 的 预后 情况 , 并 对 相关 因素 进行 
控制 。 当 然 , 由 于 本 研究 所 采用 的 SEER 数据 库 并 未 
将 所 有 肿瘤 预后 因素 全 部 纳入 库 中 请 ]， 故 建 模 所 选 指 
标的 数量 有 限 ， 该 预测 模型 可 能 存在 一 定局 限 性 。 


S 结 语 


本 研究 以 非 小 细胞 肺癌 患者 术 后 生存 状态 为 目标 
构建 患者 生存 预后 模型 ， 预测 准确 率 达 72.87%。 通 过 
构建 贝 叶 斯 网 络 探寻 预后 变量 间 的 关系 及 对 患者 生存 
情况 的 影响 , 在 网 络 结构 内 部 调整 的 基础 上 结合 临床 
专家 的 建议 ,更 好 地 诠释 了 模型 中 节点 间 关 系 。 首 次 
应 用 SEER 数据 库 ， 以 亚洲 肿瘤 患者 为 主要 研究 对 象 
构建 其 生存 预测 模型 ， 对 判断 患者 术 后 5 年 的 预后 情 
况 起 到 辅助 作用 ， 具 有 应 用 前 景 。 在 未 来 的 研究 中 ,可 
考虑 其 他 来 源 患 者 外 部 验证 的 纳入 ,提升 预测 模型 自 
身 的 适应 程度 , 更 好 地 为 临床 治疗 及 预后 评价 服务 。 
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Building Asian Tumor-patients Prognostic Model with Bayesian Network 
and SEER Database——Case Study of Non-Small Cell Lung Cancer 


Yin Bincanl Xin Shichao: Zhang Hanl Zhao Yuhong™” 
(Department of Medical Informatics, China Medical University, Shenyang 110122, China) 
“Shengjing Hospital of China Medical University, Shenyang 110004, China) 


Abstract: [Objective] This study aims to improve the tumor-prognostic assessment for Asian patients who were 
diagnosed with Non-Small Cell Lung Cancer (NSCLC). The proposed model identifies the Influencing factors of the 
patients’ survival status and predicts their prognostic Situation. [Methods] First we used single factor statistical method 
and logistic regression to identify the prognostic variables. Second, we employed the Bayesian Network algorithm to 
construct the prognostic survival model for the Asian NSCLC patients. Finally, we compared the performance of our 
model with three other algorithms. [Results] The identified prognostic variables include age, tumor size, grade, tumor 
stage, as well as the lymph nodes ratio. The proposed model could predict NSCLC patients’ prognostic survival status 
effectively. [Limitations] The SEER database had limited number of prognostic factors, which may influence the 
prediction accuracy. [Conclusions| The Bayesian Network could help us build optimal prognosis model for cancer 
patients to improve their survival rates. The proposed model is better than the Decision Tree, Support Vector Machine 
and Artificial Neural Network models. 

Keywords: Bayesian Networks Non-Small Cell Lung Cancer Prognosis Machine Learning 
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